Resumo das simulações usando o hipercubo
Resumo das simulações usando o hipercubo
Resumo das simulações
Situações simuladas
- teste t,
- correlação simples
- anova de um fator de 3 níveis. Apenas grupo tem diferença com os outros dois,
- regressão linear com duas preditoras, sendo que apenas uma afeta a resposta:
- preditoras não correlacionadas
- preditoras têm correlação de 0,5 (colinearidade)
Parâmetros da simulação
Tamanho do efeito.
É uma função do tamanho da amostra, do valor da estatística (diferença entre médias, coeficientes ou correlações), e o desvio-padrão da variável resposta. Em todos os casos o efeito cresce se a amostra é grande, se a diferença é grande e se o desvio-padrão das diferenças é pequeno. Em todos os casos o tamanho do efeito pdoe ser interpretado como uam generalização da estatística t. As expressões para tamanho do efeito para situação são:
- teste t: o próprio valor de t para amostras de mesmo tamanho e mesma variância: (x1 - x2) / (sd / sqrt(2/n))
- correlação: coeficiente de correlação convertido para estatística t: r * sqrt((n-2) / (1-r^2) )
- anova: diferença do grupos em relação aos outros, expresso na escala de t: (x1 - x2) / (sd / sqrt(3/n))
- coeficiente angular a regressão: conversão para a escala de t: beta / (sd / sqrt(n))
Tamanho da amostra
- teste t e anova: n de observações em cada tratamento
- correlação e regressões: n de observações
Desvio-padrão da resposta
Em todos os casos todas as populações amostradas tinha um mesmo desvio-padrão (homocedasticidade).
- teste t: desvio-padrão das distribuições gaussianas dos valores nas duas populações amostradas
- anova: idem para as três populações amostradas
- correlação: desvio-padrão das distribuições marginais da gaussiana bivariada da qual são tomadas as amostras
- regressão linear: desvio-padrão do coeficiente angular
Amostragem dos parâmetros
Duas mil combinações dos parâmetros foram sorteadas com o método do hipercubo latino. No sorteio todos os valores tinham a mesma probabilidade (distribuição uniforme), dentro dos seguintes intervalos:
- Tamanho do efeito: 0,1 a 8,0
- Tamanho amostral: 10 a 100
- Desvio-padrão da resposta: 0,1 a 8
Os demais valores estão descritos no manuscrito, e foram mantidos constantes.
Output das simulações
Para cada combinação de parâmetros foram realizadas dez mil simulações. Os resultados estão nos arquivos RData relacionados no final desse arquivo. Em cada um desses arquivos há dataframes com oito valores calculados para cada bateria com uma combinação de parâmetros:
- p.NHT.right : Proporção de conclusões corretas por NHT
- p.AIC.right :Proporção de conclusões corretas por IT, critério 1 (ver a seguir)
- p.AIC.right.2 :Proporção de conclusões corretas por IT, critério 2 (ver a seguir)
- p.mismatch : Proporção de discordâncias entre NHT e IT, critério 1
- p.mismatch.2 : Proporção de discordâncias entre NHT e IT, critério 2
- mean.NHT.M : Média do erro tipo M (Gelman & Carlin 2014) para NHT
- mean.AIC.M : Média do erro tipo M para IT 1
- mean.AIC.M.2 : Média do erro tipo M para IT 2
- p.NHT.S : proporção de erro tipo S (Gelman & Carlin 2014) para NHT
- p.AIC.S : proporção de erro tipo S para IT 1
- p.AIC.S.2 : proporção de erro tipo S para IT 2
- mean.pvalue : média do valor p para H0, por NHT
- mean.wH0 : média do peso de Akaike para H0, por IT
Critérios para associar IT a uma conclusão correta
Tínhamos definido que o IT chegou a uma conclusão correta se o modelo correpondente tivesse Delta-AIC = 0. Chamamos isso de critério 1. Na reunião de 03/10/17 chegamos à conclusão que um critério mais adequado seria que uma conclusão é correta apenas se o modelo correspondente tivesse o menor AIC (dAIC = 0) e todos os demais tivessem delta-AIC > 2. Chamei esse de critério 2.
Nas simulações em que havia mais de dois modelos concorrentes (anova e regressão) a proporção de conclusões corretas de IC chegava a uma assíntota de 86%. Isso acontece pq há uma probabilidade de no mínimo 16% de que modelos com um parâmetro a mais mas não informativo (coeficiente próximo de zero mas suficiente para dar um melhor ajuste) sejam selecionados. Isso é apontado no artigo do Arnold 1, que sugere então que se aplique um critério adicional de parcimônia neste caso. O critério seria de escolher entre os modelos empatados o com menor número de parâmetros. A partir do Arnold cheguei a artigos estatísticos que provam que a probabilidade de inclusão de uma parâmetro não informativo em modelos lineares Gaussianos é mesmo cerca de 16% 2. Então é um procedimento bem fundamentado, apesar de inicialmente eu considerar heterodoxo demais para colocarmos neste artigo. Graças à indicação inicial do Leo do artigo do Arnold é que me caiu a ficha.
Assim, incluí no critério dois a solução proposta por Arnold, simulando a situação em que o usuário chegaria à conclusão correta se escolhesse o modelo mais simples entre os empatados. Para teste t e correlação, em que há apenas dois modelos concorrentes, isso equivale a considerar válido todas as seleções com delta-AIC do modelo correto <2. Para anova e regressão ficou assim:
- Quando havia a presença do efeito (diferença de um grupo na anova ou efeito de uma preditora na regressão), considerei corretas as seleções em que apenas modelos com este efeito estavam selecionados, mesmo que entre eles houvesse modelos com efeitos adicionais também selecionados. No caso da ANOVA, isso acontece quando o modelo de diferença entre todos os grupos empata com o modelo de diferença apenas do grupo correto. No caso da regressão, isso acontece quando o modelo com a preditora correta empata com o modelo com o modelo com as duas preditoras. Note que nos dois casos se apenas o modelo com parâmetros adicionais for selecionado a conclusão foi considerada incorreta.
- Nos casos de ausência de efeito (H0 correta), considerei corretas também as seleções em que os modelos empatados formavam uma hieraquia (nested), incluindo o nulo. Nestes casos o usuário também chega ao modelo nulo se optar pelo modelo mais simples, o que pode acontecer de várias maneiras:
- y~1 e y~x1
- y~1 e y~x1 e y ~ x1+x2
- y~1 e y~x2
- y~1 e y~x2 e y~x1+x2
Resultados para quando há efeito (H0 falsa)
Abaixo vão os gráficos comparando NHT com os dois critérios, para os casos em que a há efeitos (H0 falsa). Este gráficos portanto mostram o poder de cada procedimento.
Probability of rightfull conclusions
Probability of conclusion mismatch
Mean M-error
Proportion of S-error
Resultados para H0 verdadeira
Nas simulações para H0 verdadeira não há variação do efeito, então fiz gráficos da probabilidade de conclusões corretas em função do erro padrão (desvio-padrão / raiz quadrada do tamanho da amostra). Ainda assim, acho que estes gráficos podem ir para o material suplementar, porque não há muita variação importante. Aí poderíamos colocar no texto principal apenas uma tabela com a proporção de erro tipo I em cada tipo de análise.
Graficos
Probabilidade média de erro tipo I
A tabela, igual à que coloquei no artigo, tem a proporção de todas as simulações em que H0 era verdadeira e cada abordagem chegou á conclusão correta:
| NHT | IT crit. 1 | IT crit. 2 | |
|---|---|---|---|
| T.test | 0.950 | 0.852 | 0.956 |
| Correla | 0.950 | 0.964 | 0.988 |
| Anova | 0.950 | 0.677 | 0.888 |
| Regr | 0.903 | 0.725 | 0.909 |
| Regr.colin | 0.910 | 0.736 | 0.910 |
p-value x Akaike weight
Na região de interesse:
Ao longo de todo intervalo de p
Próximos passos
- Reescrever a metodologia para explicar o hipercubo e erros tipo M e S, e também o critério de parcimônia do Arnold.
- Atualizar os resultados (rever os padrões, incluir descrição dos erros M e S)
- Rever material suplementar
- Rever discussão (não deve precisar mudar muita coisa)
Arquivos
Códigos em R
- Comandos que rodaram a simulação no cluster (bem demorado, apenas para documentar): simulations_rightful_conclusions.R
- Funções para realizar as simulações e gráficos. A funções das simulações têm comentários em formato Roxygen que podem gerar uma página de ajuda. Lá há mais detalhes sobre as simulações: functions.R
- O arquivo base deste página, que tem os comandos usados para gerar os gráficos: resumo_simulacoes.Rmd
Resultados das simulações
Basta carregar os binários abaixo em sua área de trabalho e vc terá os dataframes com os resultados das simulações, como descritos na seção Output das simulações:
Arnold, T.W. Uninformative parameters and model selection using Akaike’s Information Criterion. Journal of Wildlife Management, 2010, 74.6: 1175-1178.↩
Teräsvirta, T., & Mellin, I. (1986). Model selection criteria and model selection tests in regression models. Scandinavian Journal of Statistics, 159-171; Geweke, J., & Meese, R. (1981). Estimating regression models of finite but unknown order. International Economic Review, 55-70. Veja também Aho, K., Derryberry, D., & Peterson, T. (2014). Model selection for ecologists: the worldviews of AIC and BIC. Ecology, 95(3), 631-636, para uma interpretação de que isso é o preço que o AIC paga por minimizar perda de informação.↩